Latent Dirichlet allocation

テキストのtopic modelingのためのprobabilisticな生成モデル

帰納的バイアス：文書が複数のトピックから生成され、Dirichlet分布に従う

これはつまり、文書のトピックに関して、均等に含んでいるのではなく偏っているとみなす。

https://scrapbox.io/files/65397fa46b2747001c2659b6.png

1. トピックの数を$ Kとして指定

2. 各トピック$ k に対し、単語の確率分布$ \phi_kを生成する。これは、Dirichlet分布からのサンプリングによって得られる。

3. 各文書$ dに対し、トピックの混合比$ \theta_dを生成する。これも、Dirichlet分布からのサンプリングによって得られる。

4. 文書$ dの各単語$ wに対し、以下を実行

トピック$ zを文書のトピックの混合比$ \theta_dから選ぶ。

トピック$ zの単語の分布$ \phi_zから単語$ wを選ぶ

https://scrapbox.io/files/6539830de7b852001ceb2364.png

トピックが2つ、wordの数が3だとする。document, topicは3次元で表現される。

3軸があるが、2次元座標系の平面上として考える（潜在変数化）

この時、点間の距離は2次元上でEuclid距離として測るべきか？ -> よくないきがする

参考